LT会 第3回

AcademiX
25 Feb 202457:42

Summary

TLDRこのスクリプトは、最先端の機械学習モデル「空」の紹介と、その能力や特徴、学習方法、生成した動画の例などを詳しく説明しています。空は従来の動画生成AIを凌駕し、高品質で長時間の動画を生成することができ、複数のキャラクターやシーンの再現にも優れていることが示されています。大規模モデルによってシミュレーション能力が向上し、3次元の整合性や物体の相互作用などの表現が可能になったことが強調されています。また、今後の課題や安全性への取り組みについても触れられています。

Takeaways

  • 🤖 ドリーマーV2は、従来のモデルフリー強化学習と比較して、当たりのタスクにおいて高いスコアを出す能力があることが特徴。
  • 🧠 ドリーマーV2は内部モデルを確率的に変化する状態と決定論的な状態を組み合わせることで、より柔軟に状況を予測できるようになった。
  • 🎥 オープンAIから公開された動画生成AIシステム「Imagen」は、1分程度の長い動画を高品質で生成できる。
  • 📝 Imagenはテキストだけでなく、画像や動画をプロンプトに入力することも可能。
  • 🌉 Imagenは3次元の整合性やオブジェクトの相互作用、デジタル世界のシミュレーションなどの能力が発現した。
  • ⚠️ Imagenは一部の物理現象の正確な再現や、オブジェクトの突発的な出現など、まだ課題があることも確認された。
  • 🔮 オープンAIは今後もモデルをスケーリングすることで、これらの課題を解決していく方針。
  • 🔒 オープンAIは生成された動画を判別する分類器の開発や、不適切なコンテンツを排除するための対策を講じている。
  • ✨ Imagenが生成する高品質な動画は、映像制作の幅を大きく広げる可能性がある。
  • 🌐 Imagenはデジタル世界をシミュレーションする能力を持つため、世界モデルの環境として活用できるかもしれない。

Q & A

  • 1. ドリーマーV2モデルの主な特徴は何ですか?

    -ドリーマーV2モデルは従来のモデルフリー強化学習手法よりも高いスコアを出すことができ、当たりのタスクをクリアしやすくなっています。また、内部状態を確率論的に変化させることで、より柔軟な予測が可能となっています。

  • 2. ドリーマーV2モデルの内部状態はどのように表現されていますか?

    -内部状態は、決定論的な部分とカテゴリカル分布で表される確率論的な部分の2つから構成されています。カテゴリカル分布を用いることで、次の状態の繊維を予測しやすくなっています。

  • 3. ドリーマーV2モデルはどのような学習方法を採用していますか?

    -ドリーマーV2モデルは変分自由エネルギーに基づく学習方法を採用しており、これはVAEで用いられる変分ベイズ法と同じ考え方です。また、確率分布への勾配伝播にはスパイキサンプリングという手法が用いられています。

  • 4. スタイルガンがドリーマーV2モデルで生成された動画について、どのような特徴がありますか?

    -スタイリッシュな女性が東京の道を歩いている動画は、プロンプトに忠実に従って生成されています。衣装や動作、背景などの細かい指示が再現されており、反射やサングラスの映り込みなども自然に表現されていました。

  • 5. 動画生成AIである空の主な特徴は何ですか?

    -空は最長1分の長い動画を高品質に生成できるほか、複数のキャラクターや特定の動きを含む複雑なシーンも生成可能です。テキストだけでなく画像や動画もプロンプトに使用でき、様々な編集や操作が可能です。

  • 6. 空はどのような手順で動画を生成していますか?

    -まず動画を空間的に圧縮し、トランスフォーマーが扱えるようにパッチ化します。次に、ディフュージョントランスフォーマーを用いて圧縮された動画を生成し、最後にデコーダーで元の動画に戻す、という手順を踏んでいます。

  • 7. 空の大規模化によってどのような能力が発現したと考えられていますか?

    -大規模化により、3次元の整合性維持、ビデオの一貫性保持、物体との相互作用の再現、デジタル世界のシミュレーション能力などが発現したと考えられています。

  • 8. 空にはどのような限界が指摘されていますか?

    -物理現象や物体の出現の正確な再現がまだ課題となっています。例えば、ガラスが割れる際の破片の飛散や、物体が突発的に増えるような現象を適切に表現できていないことが指摘されています。

  • 9. オープンAIは空に関してどのような安全対策を講じていますか?

    -生成された動画を識別する分類器の開発、メタデータの埋め込み、不適切なプロンプトを検出する分類器の開発、ポリシーチェックなどの対策を講じています。

  • 10. 発表者の空に対する感想や期待はどのようなものでしたか?

    -発表者は自然現象の再現能力に感銘を受けましたが、物理現象の再現には課題があると指摘しています。また、世界モデルの環境として空が利用できる可能性に期待を示しています。

Outlines

00:00

🗣️ 世界モデル論文の紹介

この段落では、ドリーマーV2という世界モデルの論文を紹介しています。ドリーマーV2は従来の強化学習手法より優れた成果を上げており、特に当たりのタスクにおいて高いスコアを叩き出すことができます。内部モデルを確率論的に変化するカテゴリカル分布で表現することで、次の状態の遷移を予測しやすくなりました。また、決定論的な部分と確率論的な部分を組み合わせたアーキテクチャを採用しています。

05:03

🧠 内部モデルと確率的状態の説明

この段落では、脳内の内部モデルと、ドリーマーV2における確率論的な状態表現について説明しています。内部モデルとは、外部情報を抽象化して脳内に持つモデルのことです。ドリーマーV2では、確率論的に変化する内部状態をカテゴリカル分布で表現しています。これにより、次の状態の遷移を柔軟に表現できるようになりました。RNNの内部状態とエンコーダーで抽出した情報から、確率分布を生成しています。

10:05

🔀 内部状態と確率分布の詳細

この段落では、内部状態と確率分布の具体的な関係について詳しく説明しています。内部状態は決定論的な部分と確率論的な部分から成り、RNNの内部情報とエンコーダーから抽出した情報を組み合わせて生成されます。確率分布はカテゴリカル分布を使用しており、次の状態の遷移を予測するために使われます。ロス関数としては、画像の再構成ロス、報酬予測ロス、割引率予測ロス、そしてケルダイバージェンスロスが使われています。

15:07

📐 ケルダイバージェンスロスの役割

この段落は、ケルダイバージェンスロスの役割について説明しています。ケルダイバージェンスロスは、内部状態のみから予測された確率分布と、外部情報も利用して予測された確率分布の差を最小化することで、外部情報の影響を調節する役割を果たします。これにより、内部状態のみから状態遷移を予測できるようになり、また外部情報を完全に無視することも防げます。アルファ値を導入することで、この調整を適切に行えるようになっています。

20:11

🎯 強化学習の適用と利点

この段落では、学習された内部モデルにアクター・クリティック法を適用し、強化学習を行う方法について説明しています。内部状態のみを使って強化学習を行うことで、マルコフ過程が成り立ち、N-ステップ先までのTDターゲットを拡張できるようになりました。これにより、長期的なシミュレーションが可能になり、従来の環境ベースの手法よりも優れた結果が得られることが期待できます。また、計算コストの削減も利点として挙げられています。

25:13

🎥 動画生成AI「Everest」の紹介

この段落では、OpenAIが開発した動画生成AI「Everest」について概要を説明しています。Everestは、テキストプロンプトから高品質な最長1分の動画を生成できます。他のモデルと比べて、より長い動画生成が可能で、キャラクターの動きや背景の詳細な再現もできます。トランスフォーマーベースのアーキテクチャを採用し、様々な画像データで学習されています。計算リソースや学習データについての詳細は不明です。

30:15

🔍 Everestの学習方法の概要

この段落では、EverestのおおまかなAI学習方法について説明しています。まず、動画を空間的に圧縮し、パッチ化して単語のようなユニットに変換します。次に、ディフュージョントランスフォーマーを使ってこれらのユニットから動画を生成するよう学習します。学習の際には、ノイズを加えてクリーンな動画を予測するよう学習を行います。また、スケーリングを行うことで、動画生成の品質が向上することが示されています。

35:16

🛠️ Everestの学習データと手法

この段落では、Everestの学習データと手法についてさらに詳しく説明しています。従来は解像度や秒数を統一したデータを使っていましたが、Everestでは元の動画サイズのままで学習を行いました。これにより、サンプリングの柔軟性が高まり、様々な解像度や長さの動画生成が可能になりました。また、フレーミングと構図の改善にもつながっています。動画をパッチ化して空間的に圧縮し、ビデオエンコーダーとディフュージョントランスフォーマーで処理することで学習が行われています。

40:17

✍️ Everestによる動画生成の例

この段落では、Everestによる実際の動画生成の例が紹介されています。テキストプロンプトから、詳細な説明文を生成し、それをもとにEverestが動画を生成します。プロンプトには、キャラクターの外見や動作、背景の様子などが記述されており、生成された動画はこれらの条件を忠実に再現しています。また、画像や動画をプロンプトに使うこともでき、編集やシームレスな結合なども可能です。一例として、動画とテキストを組み合わせて動画の背景や雰囲気を変更する例が示されています。

45:18

💥 Everestのエマージェント能力

この段落では、大規模化によってEverestに発現した能力、いわゆるエマージェント能力について説明しています。3次元の整合性が取れ、物体の大きさや視点の変化が自然に表現されています。また、ビデオの一貫性も維持されており、一時的に画面から離れた物体の位置関係が保たれています。さらに、人間と物体の相互作用も適切に表現されていますが、物理現象の再現には課題もあります。加えて、デジタル世界のシミュレーションも可能になり、Minecraftのような世界を生成できるようになりました。

50:22

⚠️ Everestの限界と課題

この段落では、Everestの限界と今後の課題について述べられています。物理現象の再現については、まだ不十分な点があり、ガラスの割れ方やオブジェクトの突発的な出現など、自然な再現ができていない部分があります。今後は継続的なスケーリングによってこうした問題を解決していく方針であり、さらなる大規模化が有望な道であると述べられています。

55:24

🔐 Everestの安全対策

この段落では、OpenAIがEverestの安全性を確保するために講じている対策について説明しています。生成された動画を判別する分類器の開発、動画へのメタデータ埋め込み、プロンプトのコンテンツ分類、動画のポリシー適合性チェックなどの取り組みが行われています。時間をかけて安全性を確保しながらシステムを完成させていく方針であり、実際の使用例から学びながら改善を重ねていく計画です。

💭 Everestに対する総括と感想

この段落では、発表者がEverestに対する総括と個人的な感想を述べています。様々なプロンプトを受け付けることで映像制作の幅が広がったこと、自然現象の再現能力の高さなどが評価されています。一方で、物理シミュレーションの活用可能性や、世界モデルにも応用できる可能性などにも期待が示されています。また、OpenAIのサイトやレポートの内容を紹介し、興味のある人にはインタラクティブな操作が可能なので見てみることを勧めています。

Mindmap

Keywords

💡モデルベース強化学習

モデルベース強化学習は、環境の内部モデルを構築し、そのモデルを使ってシミュレーションを行うことにより、効率的に強化学習を行う手法です。従来の模倣学習手法と比較して、サンプル効率が高いことが利点とされています。この手法は、ドリーマーV2で採用されており、映像内では「内部モデル」「確率論的状態」「決定論的状態」といった概念が紹介されています。

💡ドリーマーV2

ドリーマーV2は、モデルベース強化学習の手法を用いたAIモデルです。従来手法よりも高い当たり精度を実現しており、長時間の動画生成が可能となっています。内部状態を確率的な状態と決定論的な状態に分けて表現し、カテゴリカル分布を用いることで、次の状態の予測精度を高めています。映像内では、このモデルの詳細な仕組みと、学習方法についての説明がなされています。

💡動画生成AI

動画生成AIとは、テキストやイメージをプロンプトとして入力することで、動画を生成するAIシステムのことです。この映像では、OpenAIが開発した「Defoma」という動画生成AIについて紹介されています。Defomaは、トランスフォーマーベースのアーキテクチャを採用し、高品質な長時間動画の生成が可能です。また、様々なプロンプトを受け入れ、条件付きで動画を生成できることが特徴です。

💡拡張可能性

拡張可能性とは、AIシステムの能力を、計算リソースやデータ量を増やすことで向上させられる性質のことです。映像内では、Defomaのサンプルクオリティーがコンピューティングパワーを増やすことで向上したことが示されています。このような拡張可能性により、今後さらなる能力の向上が期待できることが示唆されています。

💡プロンプト

プロンプトとは、AIシステムに与えるテキストや画像、動画などの入力のことです。この映像では、Defomaが受け入れるプロンプトの例として、テキスト、画像、動画が紹介されています。プロンプトの内容に応じて生成される動画が変化するため、適切なプロンプトを与えることが重要です。また、プロンプトを編集することで、生成された動画の編集も可能になります。

💡エマージェント能力

エマージェント能力とは、モデルの規模を大きくすることで、当初予期されていなかった新しい能力が発現する現象のことです。この映像では、Defomaがスケールアップされたことにより、3次元空間の整合性の維持、オブジェクトの一貫した存在、物体間の相互作用の再現、デジタル世界のシミュレーションといった、新しい能力が発現したことが紹介されています。このようなエマージェント能力は、大規模言語モデルでも同様に観察されています。

💡セーフガード

セーフガードとは、AIシステムの安全性や倫理的な使用を確保するための対策のことです。映像の最後では、OpenAIがDefomaに対して実施しているセーフガードについて言及されています。具体的には、生成された動画が本物かAIによるものかを判別する分類器の開発、動画へのメタデータの埋め込み、プロンプトの不適切な内容をチェックする分類器の構築などが挙げられています。セーフガードの実装は、AIシステムの責任ある開発と利用において重要な役割を果たします。

💡物理シミュレーション

物理シミュレーションとは、現実世界の物理法則をコンピューターモデル上で再現することです。この映像では、Defomaがある程度物理現象を再現できることが示されていますが、一方で物理シミュレーションの限界もあることが指摘されています。特に、ガラスの割れ方や物体の突発的な出現など、一部の物理現象の再現が不十分であると述べられています。物理シミュレーションの高度化は、AIシステムにとって重要な課題の一つと考えられています。

💡スケーリング

スケーリングとは、AIモデルの規模を大きくすることを意味します。映像内では、Defomaのサンプルクオリティーは計算リソースを増やすことでスケールアップし、向上したことが示されています。また、今後もモデルをさらにスケールアップさせることで、シミュレーション能力の向上が期待できるとされています。スケーリングは、大規模言語モデルでも重要な手段として用いられており、AIの能力向上に貢献してきました。

💡世界モデル

世界モデルとは、外界の環境を内部で表現したモデルのことです。映像内では、Defomaが生成したデジタル世界のシミュレーションについて述べられており、世界モデルの概念に関連しています。特に、物理シミュレーションや3次元空間の再現など、世界モデルの構築が重要になると考えられています。今後、Defomaのようなシステムが世界モデルの構築や応用に貢献する可能性があることが示唆されています。

Highlights

最近の世界モデルについて発表する。世界モデルの基本的な考え方は、従来のモデルフリー手法に比べてサンプル効率が良いことである。

ドリーマーV2は従来のモデルフリー手法より高いスコアを出し、当たり(ゲームクリアなど)をクリアしやすくなった。

内部モデルを確率論的に変化する状態として表現し、決定論的な状態と組み合わせたレントステートスペースモデル(RSSM)を使用している。

RSSMではカテゴリカル分布を利用して次の状態の遷移を予測しやすくした。

ロス関数としてイメージ再構成誤差、報酬予測誤差、割引率予測誤差、ケルダイバージェンスを用いている。

内部状態のみで次の状態を予測することで、マルコフ過程が成り立ち、従来よりもはるかに長いステップ先までTDターゲットを伸ばせるようになった。

次に発表するのは最近話題の動画生成AI「Cosmic Video」について。従来よりも長時間の高品質な動画生成が可能になった。

動画生成時は、テキストプロンプトをGPTで詳細なキャプションに変換し、そのキャプションをビデオモデルに送信する。

画像やビデオをプロンプトに入れることで、生成した動画を編集したり、2つの動画を結合したりすることが可能。

大規模化により、3次元の整合性、ビデオの一貫性、世界との相互作用、デジタル世界のシミュレーション能力が向上した。

3次元空間の理解力が向上し、視点の変化に従って物体の大きさを自然に変化させられるようになった。

フレームから外れた物体の存在位置を維持できるようになり、長期的・短期的な関係性を1つの動画で表現できるようになった。

人とオブジェクトの相互作用(ハンバーガーを食べる、ガラスが割れるなど)のモデル化にはまだ課題がある。

「Minecraftの世界」といったプロンプトから、デジタル空間のシミュレーション映像を生成できるようになった。

今後はさらにスケールを上げていくことで、これらの課題を解決できる可能性があると考えられている。

Transcripts

play00:01

あと19時3分になりましたのでまこれ

play00:03

から第3回アカデミクス会始めていきたい

play00:06

と思いますで今日今回タイムラインとして

play00:08

はえ最初の20分間で関しては最近の世界

play00:12

モデルについ

play00:14

てに発表していただいてあと後半えあと

play00:17

20分は最近話題の動画生成Aについて

play00:21

自分が発させていただきますではえさん表

play00:24

の準備ができましたらよろしくお願いし

play00:28

ますあ

play00:30

はいちょっと共有しますはいありがとう

play00:33

ござい

play00:40

ますあ見えてますかはい今画面共有中であ

play00:48

多分見えてると思いますあ分かりました

play00:52

はい

play00:53

えっと

play00:55

せあのタイトルがあの最近の世モデルに

play00:58

ついてっていうことででまえっとま結局

play01:03

ただの論文をま論文1本紹介しようかなと

play01:05

思ってでこれあのま結構世界モデルの中だ

play01:10

と有名なドリーマーV2まえっとその前に

play01:14

ドリーマーっていうえっとま論文があって

play01:17

それのなんかえっとまなんだろうえと後続

play01:20

ででえっと何がすいかって言うとま当たり

play01:24

のえっとスコアでこれまではあのこれです

play01:29

ドリ

play01:30

がマV1はま今まで従来あったモデル

play01:35

フリーの強化学習手法に対してまやっぱり

play01:39

当たりとかだと当たりのベンチマークだっ

play01:42

たりするとやっぱり負けちゃうっていう

play01:44

ことがあったんですけどこのドリーマーv

play01:46

はなんか結構当たりにあのまあなんだろう

play01:49

専念するっていうかま当たりをクリアし

play01:52

やすいようにま結構改良されてそれによっ

play01:55

てあのモデルベースにも関わらずあの従来

play01:59

のモデルフリー施行よりも高いスコアを

play02:01

叩き出したっていうことが結構まなん

play02:05

だろうこの論文のすごいところででまじゃ

play02:08

早速内容に入っていこうと思うんですけど

play02:11

えっとあすいません僕もちゃんと理解し

play02:14

きれてるかって言われと微妙なんでまあの

play02:18

なんとなくでいきますえっとまず

play02:23

まあえっとそうだなどうしようか

play02:28

play02:30

[音楽]

play02:32

うんどうやって説明しよう

play02:35

うんとああまあ普通にまずこの図から説明

play02:39

していこうと思うんですけどあちょっと

play02:40

待ってくださいえっともっと分かりやすい

play02:44

のあった気がするんです

play02:48

play02:50

えっと違う

play02:58

play03:05

うーんこれでいいの

play03:18

か分かりやすい図が確かあってあそうです

play03:21

これですねえっとまこれは結構分かり

play03:24

やすいんですけどえっとままず世界モデ

play03:28

ルっていうもののえっとま基本的な考え方

play03:31

としてえっと従来のモデルフィ手法の教科

play03:35

学習だとえっと何が良くないかって言うと

play03:37

サンプル効率が非常に悪いっていうのが

play03:40

あって例えば当たりのゲームってま昔の

play03:42

ゲセンにあったようななんだろうまあなん

play03:44

だろう古典的なゲームなんですけどま人間

play03:48

にやらせてみればまハイスコアを取れるか

play03:50

どうかは別としてまま23回あればなん

play03:54

だろううんなんか即負けするみたいなこと

play03:57

はなくなってまある程度まともに

play04:00

プレイできるんですよで

play04:03

もそれを機械学習にやせようとすると

play04:06

えっと従来のモデルフ手法だとま学習最終

play04:10

的にできる形としてはもはや人間よりも

play04:13

高いレベルプレイができるようになるん

play04:15

ですけどそれまでに何万回っていうあのな

play04:19

んだろう回数が必要になるんですねでま

play04:23

時間にま時間その時間はよくわかんない

play04:26

ですけどでもま何万回も必要っていうのは

play04:28

まこれなんて言うんだろうサンプル効率が

play04:30

非常に悪い人間に比べてサンプル効率が

play04:32

非常に悪いっていうことのまなんだろうま

play04:34

象徴っていうかでそれを用しようとしたの

play04:38

が世界手法世界モデルっていうかモデル

play04:41

ベースのま機械学習ででえっとそれをどう

play04:46

改良するかっていうと

play04:52

えっとうんとどうしようか

play04:58

play05:03

えっとすごい分かりやすい図があっ

play05:07

play05:08

[音楽]

play05:15

うんとあこれですえっと人間がえっとま脳

play05:20

の中に持っているとされる内部モデルって

play05:23

いうものがあるんですねでこれって何

play05:25

かって言うとまつまり外部の情報をてそれ

play05:30

をそのまま使うんじゃなくて脳の中でまな

play05:33

んだろうえっとあるモデルとして持ってる

play05:36

でそのモデルはま別になんか画像のような

play05:39

まなんだろうだから64か64ピクセルと

play05:43

かそういう情報として持ってるんじゃなく

play05:44

て中化されたまレテレテStateみたい

play05:49

な感じで持ってるってされてるんですねま

play05:51

この図が結構象徴的なんですけどだから

play05:54

例えば自転車を声でる時もま脳の中では

play05:58

自転車を声でるイメージをもたれ持って

play06:02

いるんですけどその中えっと余計なん

play06:05

だろうそれは抽出された情報で余計な情報

play06:07

とか入ってないっていうまそういうもの

play06:10

ですねでまそれが機械あの世界モデル

play06:14

モデルベース教科学習の基本的な考え方

play06:17

play06:19

でちょっとごめん

play06:24

なさいでえっとでそれそれからの進化と

play06:29

えっとそれの進化の過程でま1つあった

play06:32

変化がえっとそれまではえっとだからノ

play06:36

内部モデルの象徴内部モデルを表すものと

play06:39

してそれまではrnnのなんだろう内部

play06:41

状態って言うんですかそれを利用しててで

play06:45

もそれってすごい決定論的な

play06:48

ものでいや違うなごめんなさいえっと説明

play06:54

の順番しようかな

play06:56

えっとワールドモデルっていう論文の中で

play06:59

案されたものは

play07:01

えっとあれですねあの確率論的に変化する

play07:05

だから内部モデルを持っていてその内部

play07:08

モデルが例えばガウス分布の分散と平均を

play07:12

出力してそれに基づいてサンプルする

play07:15

みたいな確率的なえっとなんだろう状態が

play07:19

確率的に変異していったんですねでも状態

play07:22

って別に確率的な部分と決定論的な2つの

play07:26

部分があって例えばえっとある部屋を見

play07:28

てるとに部屋の中のものは基本的に位置は

play07:31

変化しないし

play07:33

えっと例えばで注目したいものは例えばえ

play07:37

例えば部屋の中に何かがあってそれが動い

play07:39

てるとしたらそれは確率論的に変異する

play07:42

みたいなだからその2つの側面があってで

play07:45

だからそれまでえっとデタだから決定論的

play07:48

なえっとrnnと

play07:52

えっと決定論的なものとえっと確率論的な

play07:57

ものを組み合わせたっていうのがこの

play07:59

レントステートスペースモデルあの

play08:01

rssmってやつでこれがまずえっとま

play08:05

世界もあのこのドリーマvsの中でも使わ

play08:07

れている

play08:08

とでどういう仕組みなのかって言うと

play08:14

まず

play08:16

えっとままずがえっとどうしようかなうん

play08:20

まずまrnnの内部内部情報ごめんなさい

play08:24

何て言うのかちょっと忘れちゃったんです

play08:26

けど内部情報があってそれと同時に

play08:29

エンコーダーですねvaeとかで使われる

play08:32

エンコーダーを使ってXあえっとまこれは

play08:36

えっとまずモデルを学習する段階ですね

play08:40

あの内部モデルを学習する段階ではまず

play08:43

外部から画像が入力されてそれを

play08:45

エンコーダーでま情報を抽出するとでそれ

play08:48

がまずあ情報を抽出するでえっと内部

play08:52

モデルま内部情報として持っているHが

play08:55

あってこの2つによってまこのZですねZ

play08:59

play09:00

確率確率的なものです

play09:02

えっとでこのZを2Zを出力するとでこの

play09:07

Hだけ単独でもう1つZを出力するとで

play09:12

このZえっとで先行のドリーマーっていう

play09:16

研究からこれがどう変化したのかって言う

play09:19

と先行のドリーマーでは

play09:23

えっとそう

play09:27

だうんこれ

play09:45

えっとあそうですねまこれの図が結構象徴

play09:48

的なんですけど先行のドリーマーでは

play09:51

えっとこのようなまえっとガウス分布です

play09:54

ね単方のガウス分布をままいくつかあの

play09:58

重ねてあガウス分布がまいくつかある

play10:01

みたいなそういうなんだろうえっと内部

play10:04

内部情報そういうそういう形で内部情報と

play10:07

して持っていたんですねでもこれだとま

play10:10

この図がすごく分かりやすいんですけど

play10:12

このその次の状態にいくつも繊維できるん

play10:17

ですけどあのこのいくつもの状態をガウス

play10:21

分布だと表現しづらいでえっとその代わり

play10:27

にあのだから連続的なガス分布ではなく逆

play10:30

に資産的なこのカテゴリカル

play10:33

分布に変更することでえっと次の状態の

play10:38

繊維を予測しやすくなったっていうのがま

play10:41

これの改善点

play10:44

ででだからま

play10:47

えっとそうですねだから過がオリある分布

play10:50

がいくつもいくつもま32個ですねこれ

play10:53

32個重なったものをま内部状態として

play10:56

持つと内部状態まえっとそね確率的な状態

play11:01

として持つでえっとまこの式でまずえっと

play11:06

先ほど説明したように

play11:08

このXとえっと事前に持っていた

play11:14

Hからまずえっとこの確率確率的な状態を

play11:18

出力するとでHはまその前のHTとZZ

play11:24

えっとその前のHとえっとZ

play11:29

とあとえっと行動ですね与えらえっと実行

play11:32

された行動によって次の内部状態が決定

play11:35

するとでもう1つ出力された確率状態が

play11:38

あってこれはXだからえっと次に出力され

play11:42

た画像を使わずにH内部情報だけによって

play11:45

予測するとでこのZとまZZHATのケル

play11:51

ダイバージェンスを最初化することによっ

play11:53

てだから外部のXの画像の情報を頼らずと

play11:58

も次の内部状態を予測することができる

play12:02

っていうまつまり内部で内部の情報のみで

play12:05

予測していくっていうのがまこのrssm

play12:09

の部分ででま

play12:11

この予測したZTとだから確率的に変異

play12:16

する状態と決定論的に変変異する状態をま

play12:21

えっとコンティーえっと結合してこれをま

play12:24

えっと内部これを状態としてますえでこの

play12:27

状態を使って

play12:30

えっとこの状態を使っ

play12:33

てこれ

play12:38

play12:42

んせちょっと待ってくださいえっとこれ

play12:46

は何をくしてるん

play12:51

だあそうですねえっとだ

play12:55

からこのえっとこのま内部状態えっとま

play13:00

正確には確率論的

play13:02

な状態とえっと決定論的な状態を合わせた

play13:06

ま状態からまえっと画像をも再構成するま

play13:11

つまり予測するっていうのとあとは

play13:13

リワードえっと報酬を予測するそれから

play13:15

えっとこれはえっとなんだろうかえっと

play13:18

なんて言うでしたっけあれ

play13:20

えっと

play13:22

えっと割引き率ですね割引き割引き率を

play13:27

予測するとでなんで割引きを予測する

play13:30

かって言とあのえっとエピソードつまり

play13:33

えっとエピソードが終わるに近づいて

play13:36

えっとこの割り引き率が0になるようにま

play13:40

事前の学習では与えられるんですねだから

play13:43

えっと割り引き率も予測することによって

play13:45

ももうすぐこのエピソードが終わって

play13:47

しまうつまりまゲームオーバーになって

play13:49

しまうみたいなことも予測するようにし

play13:52

てるです

play13:55

ねでえっとこの家庭がア分をでまここに

play14:01

書いてあるのこのカテゴリアル分布をどの

play14:04

ようにして

play14:05

あのあのなんだろうえっと勾配を通す

play14:08

かっていうことですねでえっと通常の

play14:11

ガウス分布だとえっとどこに書いてあるか

play14:14

な通常のガウス分布だ

play14:18

とそうですねこの

play14:22

パラタンメメえっとトリックえっとだから

play14:27

えっと

play14:30

メーショントリックっていうものを使って

play14:33

まえっと勾配をだからサンプルすると勾配

play14:36

が通らなくなってしまうんですけどえっと

play14:38

うまい具合に勾配を通す法としてルラ

play14:44

メタクっていうものがあったんですねでで

play14:46

もこれカテゴリアル分布だからそれは使い

play14:49

にくいとでその代わりにえっとどういう

play14:52

手法を使ってるかていうとまずえっとま

play14:55

サンプルするえっとまだからカテゴリ分布

play14:59

からサンプルしてワフトベクトする

play15:02

とでえっとま元にした露日をまソフト

play15:07

マックスつまりま確率分布にしてあげると

play15:09

かま確率だ合計が1の確率分布にして

play15:13

あげるでこれをサンプルプラスプロプ

play15:17

マイナスプロプとするんですねで片方

play15:20

マイナスする方にストップグラディアン

play15:21

ツっていう関数をつけてあげることによっ

play15:23

てこれどうなるかって言と準テパの時は

play15:26

えっとだからここプロスががえプラス

play15:29

マイナスされてまただのサンプルが

play15:30

サンプルとして通るとでもえっとバック

play15:34

プロパゲーションの時はえっとこの

play15:37

サンプルまで到達した勾配がまプラスなの

play15:40

でえっとサンプルとプロップスの両方に

play15:42

勾配が取るとでサンプルの方に関しては

play15:44

サンプルしてるのでそれ以上勾配は通ら

play15:47

ないんです

play15:48

けどえっとプロップスの方に関しては勾配

play15:52

が通ってくとってソフトマークス関数を

play15:54

通って露日の方に勾配が通るようになるて

play15:58

いうそういういうまま勾配の通し方を使っ

play16:01

ていますでまこれがえっとロス

play16:04

ファンクションですね

play16:08

えっとえっとこれはまだからイメージログ

play16:12

ロスだ

play16:13

からえっとHTとZTが与えられた時に

play16:18

えっとその再構成

play16:22

する最高性誤差ですねまいわゆるその最高

play16:25

性いかにうまく再構成できたかっていうま

play16:29

えっとロスとリワードログロスまあとは

play16:33

ディスカウントログロスだから報酬の予測

play16:36

誤差とえっとえっとま割引き率の予測誤差

play16:41

それとケルケールダイバージェンスですね

play16:44

これ何のケルダイバージェンスかって言と

play16:47

えっと内部状態とえっと外からの画像の2

play16:51

つを使っ

play16:52

て予測された確率分布と内部状態だけを

play16:56

使って予測された確率分布のケールダ

play16:59

ケールダイバージェンスを最小化すること

play17:01

によってだからま内部状態のみによって

play17:05

えっと状態を予測えっと状態そうですね

play17:09

確率分布を予測できるようになるとでま

play17:12

これにベータっていうハイパー

play17:13

パラメーターがつき

play17:16

ますそうですねでこれがえっとここに書い

play17:19

てあるんです

play17:20

けどえっとこれがまえっとエルボだから

play17:23

えっと変分なんて言うんでしたっけ

play17:27

えっと

play17:28

変分

play17:31

さちょっと忘れた

play17:38

なえっと

play17:55

何あ分ですね変分解えっとだからvaeに

play18:02

使われる変分解の考え方とかまあとこの

play18:07

変分自由エネルギーっていうまこれは

play18:09

ちょっとまた別の分野だと思うんですけど

play18:12

と同じ式だと捉えることができるだから

play18:14

えっとワールドモデルだからこの

play18:17

ドリーマーのこのロスファンクションは

play18:20

えっとシークエンシャルだからま

play18:22

シークエンシャルVAvaeだと解釈が

play18:25

できるってことですねでえっと

play18:29

まここで何が言いたいのかという

play18:37

play18:43

えっとあそうですねでえっとまここで主に

play18:47

説明されてるのはこのケル

play18:49

ダイバージェンスの部分がどういう意味を

play18:50

持ってくるのかっていうのとあとどういう

play18:52

工夫がされてるのかっていうことなんです

play18:54

けどまず

play18:57

えっと

play18:58

このえっとこのZハッとZを近づけること

play19:03

によってえっとまえっとこのZZの方をま

play19:07

ポステリアえっとZハッの方をえっと

play19:10

プライヤーって言うんです

play19:13

けどえっとまずプライヤーはポステリアだ

play19:17

からXが与えられた時と変わらないように

play19:21

内部状態を予測できるようになると同時に

play19:27

えっと

play19:29

えっとこのZハットがついてない方のZが

play19:32

どれくらいXから情報を受け取るのかって

play19:35

いうのを調節する役も持ってるんですね

play19:37

このケルダイバージェンスはでその調節

play19:41

する時にえっとだから外部から情報を

play19:48

全く外部から情報を全く受け取らないよう

play19:52

にえっとだ

play19:55

からえっとこの外部の情報を受け取らない

play20:00

ようにしてえっと情報の乏しい内部状態だ

play20:06

からえっとそうですね情報の乏しいこのZ

play20:11

ハットの方のみを使ってえっと予測しよう

play20:15

とするっていうことが起こりかねないです

play20:17

ねこのケルダイバージェンスをロス

play20:19

ファンクションに組み込むことによってで

play20:21

それを防ぐためにこのアルフっていう

play20:24

えっとアルフていうえっとパパラメーター

play20:28

を導入してえっとケルダイバージェンスを

play20:33

まずえっとこのポステリアとプライヤーの

play20:37

ケル

play20:38

ダイバージェンスのえっとこのストップ

play20:57

グラディアンレッドドラゴンあるんだ

play20:58

えっとプライヤーの方をできるだけ学習し

play21:01

てえっとこのZHATの方できるだけ学習

play21:04

してえっとこのZに及ぼす影響ZハッとZ

play21:08

のケルダイバージェンスによってZが学習

play21:11

できないとかZの情報が乏しくなることを

play21:13

防いているっていうのがまこのことです

play21:17

ねでえっとま実際にでこの後例えばでこの

play21:23

ビヘイビアだからまここまで行ったことで

play21:25

えっと内部モデルをが学習することができ

play21:28

たわけですねでその内部モデルを使って何

play21:30

をするかって言うとえっとアクター

play21:32

クリティックですねアクタークリ

play21:34

クリティックだからま来のモデルフリー強

play21:37

学習のま工作勾配法ですねでまその内部

play21:41

状態にをだけを使って学習していくとで

play21:44

内部状態だけを使って学習することによっ

play21:47

てまずえっとそうですね

play21:52

ま大丈夫ですかあ切れてないえっとマコフ

play21:56

程がまず成り立つとまなんでかって言うと

play21:59

えっとだからその前のその次の状態の

play22:03

セットはその前のHからしかまえっとなん

play22:07

だろう影響されないによって決まるわけだ

play22:09

からま当然マルコフ過程がまず勝定できる

play22:12

とだからえっとまそれまでの当たりみたい

play22:14

にえっといくつかのフレームを人1つの

play22:18

状態としてえっとなんだろうホムDPを

play22:21

仮定しなくて良くなったんですねでそれと

play22:23

同時にえっとクリティックえっと

play22:26

クリティックの方でえっとそうですねTD

play22:31

ターゲットをえNステップ先まで伸ばす

play22:34

ことができるでそのま初歩としてこの

play22:36

ラムダターゲットってのがあるんですけど

play22:39

だからそれまでは次の状態の報酬と割引き

play22:45

率かける次のえっとそうですね次の状態の

play22:52

えっとクリティック

play22:54

っっていうまそういうだからCステップ先

play22:59

までしかTDターゲットが伸ばせなかった

play23:01

のがまだからえっと内部状態だからえっと

play23:05

この状態から例えば好きなステップ先まで

play23:08

えっと自分の中でシュミュレーション

play23:10

できるんですねでシミュレーションする際

play23:13

にそれまでだと例えば画像が出てきて環境

play23:18

にアプローチしてるわけですから環境が

play23:20

それに反応して画像を先生してその画像を

play23:22

受けてるっていう長い作業だったのがま

play23:25

ただのさまいくつかのベクトル列の計算

play23:28

だけで済むようになったのでますごい長い

play23:31

ステップ先まで自分の中で

play23:32

シミュレーションできるとでまそれが

play23:34

ドリームだから夢を見てるよっていうこと

play23:37

でまドリーマーなんですけどだからまN

play23:40

ステップ先までTDターゲットを拡張

play23:42

できるでそれがまクリティックのロス

play23:44

ファンクションでアクターのロス

play23:46

ファンクションはすいませんえっと僕も

play23:48

よく分かってないんです

play23:50

けどなんか

play23:52

色々色々なものを組み合わせてるですごめ

play23:57

ここはちょっと僕ももよくわかんないので

play23:59

そうです

play24:00

ねはいまそうですでこれがまドリーマV2

play24:04

の大体のえっと概要ですあまこれで発表

play24:09

終わりですすいませんあの本当はちょっと

play24:12

実際の動いてる状態を動いてる様子を見せ

play24:15

たかったんですけどあのちょっと環境構築

play24:17

でちょっと手間取っちゃっ

play24:19

てはいありがとうございましたあ発表は

play24:22

ありがとうございました質問とかあるから

play24:24

いらっしゃったらあのチャットでも拒否で

play24:26

もいいのでお願いします

play24:37

あじゃすいません1点だけいいですかあ

play24:41

はいあのそのえっとどこだっ

play24:45

けえっとカテゴリから分布を使っ

play24:51

てその画像をえっと潜在変に変換する

play24:58

ところ入れてるんでしたっけ

play25:01

リえそうですねカテゴリアル分布のま確率

play25:05

的なえっと状態とまあとはえっとrnnが

play25:10

ま内部状態として持ってるものをま結合さ

play25:12

せてあの決定論的なものとま確率論的な

play25:16

ものをの2つを組み合わせた状態からま

play25:19

画像を生成するみたいなうんなんかその

play25:23

どっかで聞いたことあるんですけどあの

play25:25

ドリーマv2ってはいVQvaeに変えた

play25:30

みたいな話をどっかで聞いたことあるん

play25:32

ですけどでも結局その自分も1回ドリーマ

play25:34

V2のロブ読んだことあってでも結局

play25:39

そのあのカテゴリカル分布えっとですね

play25:44

なんだっけな難しいすよね

play25:51

えっとあそうだえっと結局そのロスの

play25:54

ところで

play25:56

あのパラメータートリックの代わりに

play25:59

なんか変わったトリック使ってたじゃない

play26:00

ですかはい結局これっていうのはこの場所

play26:04

play26:07

その確率分布にも勾配を通してい

play26:11

るっていう認識であってるんですかねこの

play26:15

確そうですねだからえっと確率分あだから

play26:20

えっとまずRNAの内部状態とえっとこの

play26:23

エンコーダーからこの確率分布を生成し

play26:26

てるんだけどだからそのコーダーとえっと

play26:29

ま内部状態から生成するところていうのは

play26:31

ま学習が必要だからでもサンプルだと

play26:35

サンプルしただけだと勾配がそこで止まっ

play26:37

ちゃうからそうですさえっとパラメーター

play26:40

をあまその何工夫をして

play26:44

るっていうじゃなんかここであのそこまで

play26:47

勾配通すように工夫していてなんかその

play26:52

ロスすいませんロスカ数のところであな

play26:57

vkvとかって結局そのなん

play27:01

だろう理3分布のところ飛ばして勾配通し

play27:04

て最後にソス関数のところで学習する

play27:07

みたいなああえっとうんとどうなんだろう

play27:11

なえっとそれとはちょっと違うというか

play27:16

なんかいやでもVQvaeああそっか

play27:22

うんとパッと答えられないんですけど

play27:26

多分ああだから言いたいこととしてはもう

play27:30

ここ飛ばしちゃってあだからエンコーダー

play27:33

に直接通せっていうことですよねそうです

play27:36

そうですそう

play27:37

ですあどうなんだろうな

play27:40

えっとまそこが根本的に違う気がしていて

play27:45

VQvae

play27:47

とああすいませんうんとちょちょっとあの

play27:52

このこの後の発表が終わったちょっと今

play27:55

調べてますあすいませんごめんなさいあ

play27:57

全然

play27:58

あの

play27:59

なんかそうですねなんかちらっとVQVA

play28:04

使ったのがVドリマV2だよってこと聞い

play28:07

たことがあってでもああ僕もちょっと論文

play28:09

読んだ時にまなんかやり方として似てる

play28:12

なっていうあそうそうですよね3あ実際

play28:16

VQVAもなんかえっとえっとさっき話し

play28:20

たなんて言うんだろうあの何えっとだから

play28:24

エンコーダーのえっと

play28:29

なんだろうアルファを導入して

play28:31

そのああえっとあそうですねあ学習が

play28:35

うまくいくようにあのアルファ導入して

play28:37

えっと勾配が通る量をま変えるみたいな

play28:40

ことはVQVAでも実際にやってて

play28:44

うんでもえっとあで確かにvkvだと

play28:48

なんかレコーダーから出た勾配そのまま

play28:51

コーダーに繋げちゃってるんですよねで

play28:54

その中のそのテーブルえなんだえっと

play28:58

潜在変数あれって結局なんかテーブル用意

play29:01

してそれぞれルジ動計算し発させるみたい

play29:03

な感じであそこの勾配は結局損失関数で

play29:07

直接そこあのなんて言うんだろうその最高

play29:10

性誤差プラスそこの誤差みたいな感じで

play29:12

付け出しちゃって感じなんでそうなんか

play29:15

なんかでもこの今回のやつだとちょっと

play29:18

そのまま勾配通せるようなテクニック使っ

play29:20

てるから違うんじゃないかなっていうだっ

play29:23

たんですけど

play29:24

ああ聞いちゃいましたありがとうござい

play29:28

ますあそうですねちょっと違う感じです

play29:31

そうそうですあああれあれあありがとう

play29:34

ございますあありがとうございますなんか

play29:37

他質問あったらお願いし

play29:42

ますチャットとか大丈夫です

play29:46

かじゃなさそうだったらち自分の方をさと

play29:50

やっちゃい

play29:56

ます

play30:02

あんまり時間もないのであのちょっとやり

play30:05

たいなと思うんですけどま今回はその最近

play30:07

話題の動画生成A空についてあの発表させ

play30:12

ていただきます東京理題社会Pさんの論

play30:15

ですえっとまず概要としては皆さんご存知

play30:18

だと思うんですけど最近オープンAから

play30:20

めちゃくちゃ話題になってるあの空って

play30:23

いうテキストから動画を生成するAIって

play30:25

のがま発表されましたとでまえどういう

play30:28

ことがあったかって言うとまえっとこの

play30:31

このAIが公開されたというよりはこの

play30:34

AIが生成した動画だったりとかまその空

play30:38

のなんて言うんでしょうレポートがま公開

play30:40

されたっていうよな状態になっていますで

play30:43

そのま空の概要としてはまさえっと近年

play30:46

混乱だとされていた動画生成タスクにおい

play30:49

てトランスフォーマーをベースとした

play30:50

アーキテクチャーでま多様な動画画像で

play30:53

大協学習さることでえ画像品質を保持した

play30:57

まプロンプトに中実な最長1分のビデを

play30:59

生成可能にしたってことになりますで

play31:02

えっとま現在の状態としてはそのえっと

play31:05

セキュリティ専門組織おそらくオープン

play31:07

エアの組織だと思うんですけどその組織と

play31:09

ま一部のクリエイターが利用可能になって

play31:12

いてまその今後のえっとモデルの発展だと

play31:16

かま安全なシステムの構築を進めるために

play31:18

ま今えっと動いてるってところです

play31:21

ちょっとリリースに関しての情報はなかっ

play31:23

たんですけどまそろそろ来るのかなって

play31:26

個人的には思ってますでま今回の流れとし

play31:29

ては最初に特徴を述べてどうやって学習し

play31:32

てるのかで今回そのテクニカルレポートを

play31:34

ベースにしてるんですけどあまり詳細な

play31:36

モデルのアーキテクチャーだとか学習方法

play31:39

が載ってないのでさらっと概要だけ話し

play31:41

ますであとその後動画生成方法まどういう

play31:45

風に使うのかとかえどういう風に利用可能

play31:48

なのかみたいなところ話してで次にその

play31:50

Mrエマージェントミネーション

play31:52

アビリティズっていうその

play31:54

トランスフォーマーのその大規模モデルと

play31:55

かでその大規模化させることによって能力

play31:58

が発言したのと同様にま今回その

play32:00

シミュレーションの能力っていうのがその

play32:02

代規化することによって発言したよって

play32:04

ところをででそれでその部数のその能力が

play32:08

発言したのでその発言した能力について

play32:10

話していってま最後そのオープンAの方針

play32:13

安全性に対する方針で最後感想みたいな

play32:16

感じで話していこうかなと思い

play32:19

ますで最初に見ていただきたいんですけど

play32:23

まこれがそのソのモデルと他のモデルを

play32:26

比較したのになってますで注目して欲しい

play32:29

こととしてはまずその動画の長さですね

play32:32

えっとだんだん消えてくと思うんですけど

play32:34

これっていうのはそのそれぞれのAIが

play32:36

最大限生成できる最大限じゃないですけど

play32:39

生成できる動画の長さでま明らかに他の

play32:42

モデルよりも空の方が長い動画は生成でき

play32:45

てるってところがありますでさっきも言っ

play32:47

た通り1分最長1分の動画を生成できるの

play32:50

でもっと長い動画が生成できるっていうの

play32:52

とあともう1つはあの人のなんて言うん

play32:55

でしょう再現度合見て欲しいんですけど

play32:58

一番分かりやすいなステーブルビデオの

play33:00

この真ん中に写ってる

play33:04

えっとこの人ですねこの人の足元見て

play33:08

欲しいんですけどちょっとそのくるって

play33:10

回転してたりするんですよねでだだけど空

play33:13

の場合は割とその人間の目にに見て全然

play33:17

不戦さがないような現ないようにその

play33:20

えっと再現できているっていうのがま見て

play33:23

分かるのかなっていう風に思いますで

play33:26

えっと

play33:28

それをまとめるとま他の動画生成用

play33:33

もえっと長時間の動画が生成可能であ

play33:37

しかも高品質な動画が生成可能になってい

play33:39

てまさらにその複数のキャラクターだとか

play33:42

ま特定の種類の動きだったりま背景の正確

play33:44

なディテールをもつ複雑なシーンを生成

play33:47

可能になってますまたそのえっと今回

play33:50

テキストだけじゃなくて画像動画からを

play33:52

プロンプトに入れることもプロンプトに

play33:54

入れてま条件つつけることができてまその

play33:57

条件に中実に動画を再現することも確認さ

play33:59

れていますでえっと他のえ特徴としては

play34:02

モデルはトランスフォーマーベースにして

play34:04

いてま様々な改造とアスペクト比つまり

play34:07

画像の横と立て長さだとかあとその画像の

play34:11

あ時間のスケール動画の何分とかの長さと

play34:15

かまいろんな画像で学習しているって

play34:18

ところですま個人的にその計算リソースと

play34:21

かそのもうちょっと学習データスとが気に

play34:24

なってたんですけどその辺りの記載はあり

play34:26

ませんでしたでえっとま最初にその学習

play34:30

方法のま概要について話すんですけど本当

play34:33

にざっくりした概要で

play34:36

そのビデオからその自空間的に圧縮しての

play34:39

トランスフォーマーで扱えるようにそのま

play34:41

パッチまその単語みたいな形に変換をして

play34:44

あげてその単語を単語みたいな形を用いて

play34:47

ディフュージョントランスフォーマーって

play34:49

言われる結構そのあのど画像生成とかで

play34:51

よく使われてるモデルなんですけどまそれ

play34:53

を学習してあげていますでさらにその

play34:57

ディフュージョントランスフォーマーで

play34:58

出力したのっていうのはあるその圧縮され

play35:00

てるものなのでまそれをまデコードつまり

play35:03

その動画に戻すえモデルもま学習してい

play35:07

るっていうような流れになってますでま

play35:10

そのちょっと明く詳細見ていきたいんです

play35:13

けどそのどうやって圧縮してるのかって言

play35:16

と段階あって最初にその動画をま公事件

play35:20

から定時件に圧縮するビデオ

play35:22

コンプレッションネットワークっていうま

play35:24

ま多分オ講座ですね応講でま圧縮をしてま

play35:28

えっと2ステップ目にえスペースタイム

play35:31

ラテンパツていうモジュールでその圧縮し

play35:35

た動画をトランスフォーマーが扱えるま

play35:38

単語みたいな形にえ変換してま空間パッチ

play35:43

のCケスを注してるというような形になっ

play35:45

てますでえっとさっき言ったその

play35:47

ディフュージョントランスフォーマーの

play35:49

学習方法なんですけどこれはその元の綺麗

play35:52

な動画に対してノイズを加えてあげてあえ

play35:55

さらにそのテキストですねテキストを条件

play35:58

につけてあげて

play36:00

えっと元の綺麗な

play36:03

え動画を予測するように学習することで

play36:06

うまくあの生成モデルってのが学習できる

play36:09

よでそまそれを使っても今回もやってると

play36:12

いうようなところになります詳細なえ方法

play36:15

についてはえっとよくわかんなかったんで

play36:18

楽しますで

play36:20

えっと1つ学習方法のとこに述べられた

play36:23

述べられてたこととしてはその計算量を

play36:26

増やすことによってそのサンプルの品質

play36:29

っていうのがま向上してったよっていうの

play36:31

がまめられてましたで下の図見てその動画

play36:35

見ていただきたいんですけど左がそのま

play36:36

基準となるまベースコンピュートって書い

play36:39

てあるんでどのぐらいの計算量か分から

play36:41

ないんですけどある基準の計算量からり3

play36:44

倍に増やしたのが真ん中の動画になってい

play36:47

てま割と

play36:49

い犬っぽくなってるって感じはしてるって

play36:52

いてそれを32倍に増やすとなんか

play36:54

めちゃくちゃこうガ高改造度の像が生成し

play36:58

てるのが分かると思いますまこんな形で

play37:00

そのスケーリング計算量を増やすことに

play37:02

よってえっと大規模言語モデルと同様に

play37:05

えっとサンプルの進数が上がるよってこと

play37:08

を示されてましたでえっとさらにそのどう

play37:12

いうデータを使ってるのかってところで

play37:14

えっと従来その動画

play37:17

生成AIを作る際に使われてたデータって

play37:20

いうのはあの一般的にその解像度だとか

play37:24

その秒数とかを統一して学習させたんです

play37:27

ねなんでここに書いてあるとり256

play37:30

256のえ4秒の動画にリサイズ

play37:32

クロッピングしてえっとそれをデータに

play37:35

使ってたんですけど今回はそういうことを

play37:37

一切せずに元の動画のサイズで学習を行っ

play37:41

てますでそれを行ったメリットとして2つ

play37:45

ああ上げられていて1つ目はサンプル

play37:47

サンプリングの柔軟性つまりその動画を

play37:50

生成する際の自由度が上がるってところで

play37:53

つまりそのめちゃくちゃ公開外の画像も

play37:55

生成できるしめちゃくちゃが低解像度

play37:57

めっちゃあ荒い動画も生成できるように

play38:00

なるので割とその応用が引くっていうかも

play38:03

ちょっと今回簡単に動画生成したいなと

play38:05

思ったら割と正解度で出せばいいしみたい

play38:07

なそういうその応用が引くっていうのが

play38:10

メリットとして上げられていてま2つ目は

play38:12

えっとフレーミングと構図の改善っていう

play38:14

風に言われていてまこれは従来起こってた

play38:16

問題点としてま正方権トリミングすると

play38:19

記者体が一部しか映ってない動画が生成さ

play38:21

れがちだったんですけどまそれが今回リ

play38:24

リサイとかしてないのでリサイはしてない

play38:27

のでまそういうことは起こらなかったよっ

play38:28

ていうのは2つのメリットがああげられて

play38:31

ましたでえっとまそれがえっと学習につい

play38:35

ての話になってますで次からはそのどう

play38:38

やってえっと動画を生成しているのかって

play38:41

ところを見ていきたいなと思うんですけど

play38:43

最初にその

play38:45

テキストのみを用いて生成しているものを

play38:48

見ていきますでテキストから動画を生成

play38:52

する際っていうのはま一旦その人間が

play38:54

何かしらの示は指示を与えるんですけど

play38:56

けどその指示を一旦GPTを活用してより

play38:59

詳細な文章まキャプションに変換してそれ

play39:02

をビデオモデルに送信しているそうですで

play39:05

ま1例見ていただきたいんですけど見て

play39:07

いこうと思うんですけどえっとまここに

play39:10

プロンプトとしてなんスタイリッシュ

play39:12

ウーマンがえ東京の道を歩いてますとで

play39:15

さらにそのま状況のあの指示ですよね

play39:20

さらにその下にえっと彼女が彼女のなんて

play39:24

着てるものとの指示がブラックレザー

play39:26

ジャケットとかロングレッドドレスだとか

play39:29

えブラックブーツとかっていうような

play39:32

えっとてるものの指示が与えられててあと

play39:35

動作の指示もこれしてるんですねシウ

play39:37

confidentアカジュリーと自信を

play39:39

持ったりと自信持ってカジュアルに歩いて

play39:41

みたいなあとその背景の指示としてえっと

play39:46

湿ってる道でえっと色々な色カラフルな色

play39:52

によってその地面が未来みたいになってる

play39:55

よみたいな感じあとその

play39:56

え歩行者がやぱ歩いてるよみたいな指示を

play39:59

与えてあげるとま右の動画みたいな形でま

play40:04

あのかなりそのプロンプトにえ忠実に従っ

play40:08

て動画生成してるなっていうのを見て

play40:11

感じるのかなっていう風に思いますまその

play40:14

反射だとか例えばあサングラス映ると思う

play40:16

んですけどサングラスに反射してる情景だ

play40:18

とかっていうのもある種あのかなり充実に

play40:23

再現してるなっていう感想をを自分は抱き

play40:27

ましたちょっと長いちょっと待ちます

play40:34

ねいかじゃあ次行きますね中ででえっと

play40:39

先ほどテキストだけをプロンプトに入れて

play40:41

たんですけどそうじゃなくて動画とか画像

play40:44

をプロントにすることも可能で

play40:47

えっとまそうすることによってま用途が

play40:50

広がるっていう風に書いてありましたで

play40:52

具体的に4つ書いてあったんですけど

play40:54

ちょっと今回時間ないので1つだけ紹介し

play40:57

ますであの詳細に関してはあのえっと

play41:00

テクニカルレポートの方にあのサンプルの

play41:03

映像とかも含めて紹介されてますので

play41:05

そちらござご覧いただければなと思います

play41:08

で基本的に4つありましてあの生成した

play41:11

ビデオの延長とかそのつまり1回生成した

play41:14

ビデオを長くしたかしたい時にそのこの

play41:16

続きを続続してみたいな風にすると生成

play41:19

することもできますしさらにそのビデオと

play41:22

まテキストを入力することでそのビデオを

play41:24

自分好みに編集することできたりだとか2

play41:27

つのビデオを入力してまそれをシームレス

play41:30

にあのなんて言うんでしょう結合構成する

play41:33

みたいなこともできたりま単純な画像生成

play41:36

とかも可能になってますで今回一例だけ

play41:38

紹介するこれがそのビデオからビデオをを

play41:42

編集するテキストを使って編集するものな

play41:45

んですけど1番左がえっと元々の映像に

play41:48

なってますこの映像に対してテキストを

play41:51

このこのの動画を入れてあげるとあっと

play41:55

右指のようなえっとこれはなんかその

play41:57

1920年代にまセッティングしてとで

play42:01

さらにその赤い車っていうのは赤い色かな

play42:04

赤色ってのを保持したままにしてっていう

play42:06

指示えるとまあの1920年代ぐらいの車

play42:11

なんですかねちょっとわかんないですけど

play42:13

ちょっと古めの車でまその背景に映ってる

play42:17

人々もちょっと古い古い人の格好というか

play42:21

ま現代とはちょっと違うようなえっと映像

play42:24

がま生成されていますでさらにその下の方

play42:27

ではそのピクセルアートスタイルに変え

play42:28

てっていう風にすると本当にそのなんか

play42:30

Minecraftに出てくるような

play42:32

えっと情景になってま生成しているという

play42:35

感じになっていてまその動画を使動画とま

play42:39

テキストを使ってま動画を生成できるよう

play42:41

にはなっているのでよりその動画編集の

play42:44

えっと可能性を広げるんじゃないかなって

play42:47

いう風に思いましたでま先ほどえ次の話に

play42:51

なってくるんですけどま先ほどもちょろっ

play42:53

と話したんですがその大希望化にて

play42:57

その多くの教育的なシミュレーション能力

play43:00

が発言したっていう風に書いてあるんです

play43:02

けどまそのなんて言うんでしょうあの大

play43:07

規模言語モデルとかも

play43:09

そのあの少ない少ないというかあある

play43:14

ところの計算量とかデータ数ではその全然

play43:18

解けなかったタスクがあのあるところ境い

play43:22

にめちゃくちゃ解けるようになったみたい

play43:23

なその能力が発言したってことがよく言わ

play43:26

れているんですけどそういうことがまその

play43:29

今回のえ動画生成にも起こっていてまそれ

play43:32

がま今回4つに使ったっていうところで

play43:35

今回ちょっと紹介しようかなと思います1

play43:37

つ目がえっと3D3次元の整合性が取れて

play43:41

いるとかあとビデオの一貫性あと世界との

play43:44

相互作用あとデジタル世界でのシュミレ

play43:46

ションっていうのがまそのできているん

play43:48

じゃないかなという風に言われてますで1

play43:51

つ目の3次元の整合性なんですけどま下の

play43:53

図下の動画かねていただきたいんですけど

play43:57

これっていうのがその視点が変わっていく

play43:59

映像になっていきますでかなりその

play44:02

もちろんその視点が変わるとあの映る物体

play44:06

っていうのは必ず大きさ変化させない変化

play44:08

させないといけないんですけどまそれっ

play44:10

ていのが人間の目に不自然さがないなく

play44:13

あのうまくそのなんて言うんでしょう視点

play44:15

を動かしてるってところがやぱそのモデル

play44:18

がこのこっから見た時の3次元えっと空間

play44:23

ってのはこういう風に見えててこっから見

play44:24

た時にこう見えてるってのが分かっ理解

play44:26

できているなんかそのナーフみたいな形の

play44:28

えっと能力もま持っているのかなっていう

play44:32

風にま3次元空間をまうまく理解してい

play44:35

るっていう理解できる能力がま発言したと

play44:38

いう風に捉えられるっていう風に書かれて

play44:41

ましたで次にそのビデオの一貫性って

play44:44

ところなんですけどまこの動画見て

play44:47

いただきたいんですけどこの真ん中に映る

play44:49

犬が一旦人によって隠れるんですよねで人

play44:51

によって隠れた後に

play44:54

えっと動かな人によって一体隠れるんです

play44:58

けど隠れた後もまた同じ場所に犬がい

play45:02

るっていうそのフレームから外れたと外れ

play45:05

てもまそのまに位置するそその存在を維持

play45:07

することができているっていうところがま

play45:10

すごい能力だよねっていう風に述べられて

play45:12

ましたでここには書いてあるその長期と

play45:14

短期っていうのはさっき言ったその長期的

play45:18

の関係っていうのはここ

play45:21

に犬が存在するっていう犬がま長期的にい

play45:26

るっていうのとま人間が短期的に流れて

play45:28

るって2つの別々の関係っていうのを

play45:31

うまく1つの動画でま再現できてい

play45:33

るってところがますごいところねすごい

play45:36

能力であるっていう風に思われていますで

play45:39

えっと今度はそのさっきは別々のなんて

play45:43

言うんでしょう動きだったんですけどま

play45:45

それがその総合作用するよってところで

play45:48

えっと今ハンバーガー食べてるんですけど

play45:52

もちろん人がハンバーガー食べると

play45:54

あの神跡が残るはずなんですよねでそれが

play45:58

ちゃんと再現できていてつまり人が

play46:00

ハンバーガー食べるとハンバーガーが減

play46:02

るっていうようなその物体との相互作用

play46:05

っていうのもま理解してるよっていう風に

play46:07

え言えると思いますでただこれ面白い時時

play46:11

きって書いてあるんですよねなんでその

play46:14

あのこのこの後にもその限界のとこで話す

play46:16

んですけどあの総合作用がうまく

play46:18

モデリングつまりそのモデリンググってか

play46:20

うまく再現できてない場合もあるっていう

play46:22

ところがまだあってまそれが1つ課題に

play46:24

なってるところではあります

play46:26

で最後のエマージェントシミュレーション

play46:28

カアビリティなんですけどまデジタル

play46:31

デジタル世界のシミュレーションがまでき

play46:33

るっていうところでまこれあのプロトに

play46:35

mineクラフって言っただけでまこの

play46:37

ような画像を生成してま実際にその

play46:39

Minecraftを操作してるような

play46:41

映像が生成されているってところになり

play46:46

ますまなんでま色々と世界モデルとかにも

play46:49

応用できるのかなとちょっと思たりようが

play46:51

しますでさっき言ったその

play46:53

シミュレーションの限界のに映るんです

play46:56

けどえっと先ほどのハンバーグはあの相互

play46:59

作用をちゃんとえっと再現できてたんです

play47:02

けど左のえガラスが割れる瞬間っていうの

play47:06

はその破片とかが飛び散ってないんですよ

play47:09

ねでしかも不自然な割り方をして

play47:11

るっていうのであのまうまくその物理現象

play47:14

をま正確に正確に再現できてないっていう

play47:17

風に言えててえっとまだその物理現象って

play47:21

いうのはまだ正確に把握できてないよねっ

play47:22

ていう風に述べられてましたあともう1つ

play47:25

の問題としてはこあの狼か犬か分からない

play47:27

んですけど突発増えるんですよね4匹5匹

play47:31

とか増えたりするんでまこういった

play47:32

オブジェクトの突発的な出現とかもま確認

play47:35

されていてままだまだ改善する置がある

play47:38

よってみたいな話がありましたでえっと

play47:42

今後に関してないう風に最後にテクニカル

play47:45

レポ最後の部に書いてあったんですけど

play47:48

あのこですねあ赤い部分見ていただきたい

play47:52

んですけどあのシミュレーションの能力を

play47:56

ま発展させるためにはそのビデオのモデル

play47:59

をあの継続的にスケールすることがま有望

play48:03

な道だろうみたいな風に分な道であ

play48:05

るっていうのをま空が示したと信じてる

play48:07

みたいなに書いてあるんですけどなんでま

play48:10

今後もオープンAIはまスケール上げて

play48:13

いくのもっともっとモデル大きくしていく

play48:15

のかなっていう感じはちょっとしました

play48:19

なん

play48:20

でもっともっとスケール上げていけば

play48:23

もっとそのさっき言ったまこれらの問題の

play48:26

解決していくかもしれないなとはちょっと

play48:28

思っていますでえっと最後にその安全性に

play48:32

ついてのオープンAの方針なんですけど

play48:36

えっとま5つあってその動画が空から生成

play48:40

された中を判別する分類器をま開発して

play48:43

いったりだとかあとその生成した動画に

play48:47

対してメタデータを埋め込んでこれがこれ

play48:50

がそのAIによって作られたってことを

play48:52

明示してた明示したりだとかあとはえ

play48:55

えっと既存のそのオーAのえ画像先生

play49:00

のdatさんの安全策も利用したりあとは

play49:04

そのプロンプトに用いるテキストにそ不

play49:07

適切なものが入ってないかっていうの分類

play49:09

する分類機を開発したりあとそのえっと

play49:13

生成された動画がそのOpenAIの

play49:15

ポリシーに順じてるかっていうを確認する

play49:18

分類器を生成したりしてるというとでした

play49:20

でえっと実際の使用例から学んでいって

play49:23

どんどんどんどんえっとでいくってことな

play49:26

のでま時間かけて完全なAIシステムを

play49:28

作りリリースするてみたいなことがってい

play49:33

たって感じですでえっとこれでま通り

play49:37

テクニカルレポートとあのオープンの

play49:39

サイトに書いてあることを説明したんです

play49:41

けど個人的な感想としてはぱそのテキスト

play49:45

動画画像の様々なプロンプトで

play49:48

えっと色々

play49:50

そのま様々プロントは利用可能なのでま

play49:54

かなりその映像政策の幅を広げるのでない

play49:57

かなっていう風に感じてますま個人的に

play50:00

ちょっと面白いてすごいなっと思ってたの

play50:02

play50:04

その自然現象の再現ってなところはかなり

play50:07

すごいなと思っててまこの蒸気の再現だっ

play50:10

たりだとかこのな波の再現と波の表現って

play50:13

のがま本当に緻密にされていてもしかし

play50:18

たらそのプを再現

play50:21

する物理の再現みたいなところまで利用

play50:26

できるのかなちょっと個人的にはちょっと

play50:28

期待してたりちょっとやめて欲しいなって

play50:30

思ってたり部分はあるんですけどそのこと

play50:33

あとそのま先ほどの

play50:36

そのデジタル空間のシミュレーションとか

play50:39

でも話した通りあその世界モデルのアイス

play50:42

の環境としてま空が使えるかもしれないな

play50:46

とはちょっと思ってたりしてますですね

play50:50

ちょでまま今回はこのオープンえこのラの

play50:55

サイトとテクニカルレポートから書いて

play50:58

あることを紹介したんですけどこれこの

play50:59

サイト結構面白いのであのもし時間があっ

play51:03

たらあのちらっと見ていあそ結構

play51:06

インタラクティブにえっと操作できるあの

play51:10

子供もであインタラクできるのでなんか見

play51:13

てて面白いんじゃないかなと思うのでもし

play51:15

時間があったら見ていただけるといいのか

play51:17

なって思いますえっと一通りSし終わり

play51:21

ましたなんでなんか質問とかコメントとか

play51:24

あったらえっとちょっとああんでもいいの

play51:28

でお願いし

play51:42

ますああの1ついいですかはいお願いし

play51:46

ますああのあの発表すごく面白かったん

play51:50

ですけどあのトランあの多分

play51:53

トランスフォーマーなんでしょうねあの

play51:54

動画先生っていうのではいであのま僕は

play52:01

あの実際最近世界モデルでなんか

play52:03

トランスフォーマーを利用したものがあ

play52:06

るっていうのは聞いたことあるんですけど

play52:08

あのトランスフォーマーを利用する際に

play52:11

例えばドリーマーとかだとあのなんだろう

play52:13

vaeのえっとつまりなんだろうえっと

play52:16

潜在表潜在空間がまなんだろう変異してい

play52:20

くっていうでトランスフォーマーにとって

play52:22

のなんだろう潜在空間っていうのはどの

play52:24

部分なんですけどなあまり

play52:25

トランスフォーマーに詳しくなくて

play52:27

トランスフォーマーあ結構その世界モデル

play52:31

とで使われてるトランスフォーマー

play52:33

ディシジョントランスフォーマーとか

play52:34

トラジェクトリートランスフォーマーとか

play52:36

言われると思うんですけどあれは局その

play52:40

なんて言うんだちょっと1回スライド変え

play52:43

ます

play52:50

play52:51

[音楽]

play52:54

えっと

play52:56

多分この今回やってる空とはちょっと違う

play52:59

んです

play53:07

けどこれ前発表したマルチゲーム

play53:10

ディシジョントランスフォーマーってやつ

play53:18

でこんな感じなんですよね結局そのま

play53:22

めちゃくちゃ長い多分かなり

play53:26

バートとかでも大体512ぐらいでしたっ

play53:29

けトクてそんな感じでそのそれぞれのトク

play53:33

に対してえっとそれに対応するルレイ

play53:38

ヤーっていうのが存在するんですよあの

play53:42

このこで

play53:44

あの基本

play53:46

その

play53:47

えっと許可学習とかでえっと使う場合には

play53:52

コザルトランスフォーマーとかて言って前

play53:55

の情報が見えないような状態でこうですね

play53:59

こんな形でえっとモデルをを使ってい

play54:04

てあそのなんて言うんでしょうえっとです

play54:10

ね内部状態

play54:17

があれです

play54:21

そのまもちろん

play54:24

その

play54:25

lstmみたいな使い回しみたいなことは

play54:28

トランスフォーマーしないのでま固定され

play54:31

play54:32

シークエンスの中でまるそのおそらく強化

play54:37

科だったらエピソードのなんて言うん

play54:39

でしょう何回あるかみたいな決まってると

play54:41

思うんですけどまそれ

play54:43

をなんて言うん

play54:46

だろこれあのマルチョン

play54:49

トランスフォーマーはえっとま状態のこれ

play54:54

えっと

play54:56

えと画像をパッチに分けて状態を入れて

play55:00

あげる

play55:01

とえその報酬を出力するようなものになっ

play55:06

てその報酬をもう1回入れてあげるとえ

play55:11

行動が力されるみたいな感じになってい

play55:13

てなんて言うんだろう

play55:19

play55:20

[音楽]

play55:24

うん

play55:25

なんか

play55:27

その

play55:29

あのドリーマーみたいなものっていうのは

play55:32

シュミュレーションできるじゃないですか

play55:34

あれてだけどトランスフォーマーは

play55:37

おそらくシュミュレーションするという

play55:39

よりかは次の最適なえっと行動を予測する

play55:46

みたいな感じになるんですよねなんだろう

play55:49

怪的というかあつまり中が完全にブラック

play55:54

ボックスみたいなそういうイメージですか

play55:56

あそうそうですそれそれでで今回この

play56:00

マルチゲームピショントランスフォー

play56:02

マーっていうのは酬まで予測してるんです

play56:05

よでなんでそのこの場合はその最適な作際

play56:11

的なこのアクションまいその方策に従って

play56:14

出すんじゃなくてそのその時出力された

play56:18

報酬に沿ってその射にあったアクションを

play56:22

出すみたいな感じで工夫をしてたりとかを

play56:24

してでうんなんでそのまそうですねだから

play56:29

その内部状態どういう風に表してるの

play56:32

かって言われるとブラックボックスちゃ

play56:34

ブラック

play56:37

ボックスな気がしてきましたそうですね

play56:41

ブラックボックスがねあれですね

play56:43

確かああありがとうござい

play56:51

ますそうです

play56:53

play57:01

難しいなんか他に質問かあっ

play57:05

たらし

play57:13

ますなさそうなのであればもう8時になっ

play57:16

たので今日は終わりにしようかなって思い

play57:22

ますあじゃえ本日の会これで終わりに

play57:27

しようと思いますえっと今日は

play57:30

さんありがとうございましたあありがとう

play57:33

ございましたじゃあ退出していただいて

play57:35

大丈夫

play57:40

です

Rate This

5.0 / 5 (0 votes)

Do you need a summary in English?